在前幾篇文章中,我們探討了如何將物件 3D 化,以及AI 潮流下的圖像合成趨勢。在眾多技術分支的探索中,人物與衣著的影像合成已是合成圖像效果相當不錯的一個領域。今天,我們將介紹這個領域中效果非常好的模型 IDM-VTON (Improved Diffusion Models for Virtual Try-ON),它能將服裝圖像逼真地「穿」到人物身上,未來有可能為電商平台帶來革命性的購物體驗。
Virtual try-on (VTON),即為虛擬試衣間的概念,除了我們今天要討論的 IDM-VTON 外,這個領域內的其他模型也會取類似的名字,如:VITON3、VITON-HD910、CP-VTON8、LaDI-VTON5、DCI-VTON2、StableVITON4等,所以未來模型推陳出新時,我們也能一眼知道它的用途。
今天要介紹的主角IDM-VTON,他是一種基於擴散模型 (Diffusion Models) 的虛擬試衣技術。它可以將服裝圖像和人物圖像作為輸入,生成人物穿上該服裝的效果圖。以效果來說還算不錯,目前 Youtube 上已有不少結合 ComfyUI 的實作影片,整合出了方便好用的視覺化影像處理流水線 (如:Youtbute)。
IDM-VTON 主要由三個部分組成:
這些特徵會被融合到 TryonNet 中,並通過交叉注意力層進行處理,最終生成虛擬試穿圖像。過這些模型的合作,IDM-VTON 可以生成非常接近真實的試穿效果。
相較於其他的虛擬試衣技術,IDM-VTON 在以下幾個方面具有優勢:
這邊我們就用他的專案 (GitHub) 跑看看效果,同時由於我們沒有需要立即訓練這個模型,所以看 GitHub 上「Start a local gradio demo」的部分即可。如果你看完覺得麻煩,不想自己搭,也可以用他的 Demo 頁面 (Huggingface)。
我們先用前面幾天提到的 Segment Anything 從公司的新制服的宣傳片裡取幾個樣本來試試:
效果還算不錯,但你會發現由於每次輸入的服裝圖例只有 1 張,有些模型不知道的細節他就只能瞎掰,同時如果未來要做影片中的人物服裝置換,應該有很多衣服上的細節會出現肉眼可辨的違和感。
這項技術在未來的電商平台上有著巨大的潛力:
當然,這項技術也面臨一些挑戰:
IDM-VTON 作為一種先進的虛擬試衣技術,它不僅能讓線上購物更加生動真實,還能為設計師和品牌提供新的創意空間。隨著技術不斷進步,相信虛擬試衣間將在未來的購物體驗中扮演越來越重要的角色。